df.describe()
是 Pandas 中非常常用的统计汇总函数,用于快速查看数值列的统计摘要信息.
基本用法
python
df.describe()
返回结果类似如下:
count | mean | std | min | 25% | 50% | 75% | max | |
---|---|---|---|---|---|---|---|---|
年龄 | 100 | 35.4 | 10.2 | 18 | 27 | 34 | 42 | 60 |
每一列的解释如下:
指标 | 含义 |
---|---|
count | 非空值数量(缺失值不计算) |
mean | 平均值 |
std | 标准差(衡量数据的离散程度) |
min | 最小值 |
25% | 25% 分位数(第一四分位数) |
50% | 50% 分位数(中位数) |
75% | 75% 分位数(第三四分位数) |
max | 最大值 |
这些值非常适合用来观察数据的集中趋势、分布范围和是否存在异常值。
示例代码:
python
import pandas as pd
data = {
'年龄': [25, 30, 35, 40, 45, None],
'工资': [5000, 6000, 7000, 8000, 9000, 10000]
}
df = pd.DataFrame(data)
print(df.describe())
输出(省略格式):
年龄 工资
count 5.000000 6.000000
mean 35.000000 7500.000000
std 7.905694 1870.828693
min 25.000000 5000.000000
25% 30.000000 6250.000000
50% 35.000000 7500.000000
75% 40.000000 8750.000000
max 45.000000 10000.000000
注意:
- 年龄只有 5 个有效值,所以
count
是 5。 - 工资 6 个值都不缺失,所以
count
是 6。
扩展参数
df.describe(include='all')
:同时显示非数值列(如字符串、分类列)的统计信息。df.describe(include=['object'])
:只统计 object 类型(通常是字符串)的列。df.describe(percentiles=[.1, .9])
:指定分位点,比如10%和90%。